n-gram

n - 1

개의 이전 단어를 보고 그 다음 단어를 예측하는, 확률 기반의 모델.

과거의 몇 개의, $n - 1$ 개의 연속된 단어를 보는 지에 따라 그 다음에 올 단어가 문법적으로 맞을 확률에 대해 계산한다.

P (w^{1}, \dots, w^{⊤} ∣ θ) = t \prod P (w^{t} ∣ w^{1}, \dots, w^{t - 1}, θ)

: by Bayes' Theorem's chain-rule.

위의 확률에 따라서, 몇 개( $n$ )까지의 이전 단어를 볼 것인지에 따라 다음 단어( $w^{t}$ )의 확률을 근사화 하여 계산한다.

n-gram

\approx t \prod P (w^{t} ∣ w^{t - n + 1}, \dots, w^{t - 1}, θ)

보통 $w^{0}$ 은 의미가 없도록 '' 과 같은 빈 문자열로 처리한다.

만약, 다음 단어가 문법적으로 틀리다면, 학습 데이터에는 그러한 문법적으로 틀린 $n$ 개의 단어가 붙어 있게 구성되어 있을 확률이 적으므로 해당 단어는 확률이 작게 나올 것이다.

problem